The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
自然语言理解(NLU)模型倾向于依靠虚假的相关性(即数据集偏见)来在分布数据集上实现高性能,但在分布外部的数据集中的性能差。大多数现有的偏见方法通常都以偏见的特征(即引起这种虚假相关性的表面特征)来识别和削弱这些样品。但是,下降加权这些样品阻碍了从这些样品的无偏见部分学习的模型。为了应对这一挑战,在本文中,我们建议从特征空间的角度以细粒度的方式消除虚假的相关性。具体而言,我们引入了随机傅立叶特征和加权重采样,以将功能之间的依赖关系解释以减轻虚假相关性。在获得非相关的功能后,我们进一步设计了一种基于相互信息的方法来净化它们,这迫使模型学习与任务更相关的功能。对两个经过良好研究的NLU任务进行的广泛实验表明,我们的方法优于其他比较方法。
translated by 谷歌翻译
Timely and effective feedback within surgical training plays a critical role in developing the skills required to perform safe and efficient surgery. Feedback from expert surgeons, while especially valuable in this regard, is challenging to acquire due to their typically busy schedules, and may be subject to biases. Formal assessment procedures like OSATS and GEARS attempt to provide objective measures of skill, but remain time-consuming. With advances in machine learning there is an opportunity for fast and objective automated feedback on technical skills. The SimSurgSkill 2021 challenge (hosted as a sub-challenge of EndoVis at MICCAI 2021) aimed to promote and foster work in this endeavor. Using virtual reality (VR) surgical tasks, competitors were tasked with localizing instruments and predicting surgical skill. Here we summarize the winning approaches and how they performed. Using this publicly available dataset and results as a springboard, future work may enable more efficient training of surgeons with advances in surgical data science. The dataset can be accessed from https://console.cloud.google.com/storage/browser/isi-simsurgskill-2021.
translated by 谷歌翻译
手术动作三胞胎识别提供了对手术场景的更好理解。这项任务具有很高的相关性,因为它为外科医生提供了背景感知的支持和安全性。当前改善绩效的首选策略是开发新的网络机制。但是,当前最新技术的性能大大低于其他手术任务。为什么会发生这种情况?这是我们在这项工作中解决的问题。我们提出了第一项研究,以了解现有的深度学习模型通过稳健性和解释的镜头的失败。首先,我们通过对抗优化方案研究了当前的现有模型。然后,我们通过基于功能的解释提供故障模式。我们的研究对提高性能和提高可靠性的关键是核心和虚假属性。我们的工作为外科科学中更具可信赖性和可靠性的深度学习模型打开了大门。
translated by 谷歌翻译
手术场景细分对于促使机器人手术的认知援助至关重要。但是,以逐帧方式以像素为单位的注释视频是昂贵且耗时的。为了大大减轻标签负担,在这项工作中,我们从机器人手术视频中研究了半监督的场景细分,这实际上是必不可少的,但以前很少探索。我们考虑在等距采样下的临床上适当的注释情况。然后,我们提出了PGV-CL,这是一种新型的伪标签引导的跨视频对比学习方法,以增强场景分割。它有效地利用了未标记的数据来实现可信赖和全球模型的正则化,从而产生更具歧视性的特征表示。具体来说,对于可信赖的表示学习,我们建议合并伪标签以指导对选择,从而获得更可靠的代表对像素对比度。此外,我们将代表学习空间从以前的图像级扩展到交叉视频,该图像可以捕获全球语义以使学习过程受益。我们广泛评估了公共机器人手术数据集Edovis18和公共白内障数据集Cadis的方法。实验结果证明了我们方法的有效性,在不同的标签比下始终超过了最先进的半监督方法,甚至超过了10.1%标签的destovis18上的全面监督培训。
translated by 谷歌翻译
通过允许多个临床站点在不集中数据集的情况下协作学习全球模型,在联邦学习(FL)下进行的医学图像分割是一个有希望的方向。但是,使用单个模型适应来自不同站点的各种数据分布非常具有挑战性。个性化的FL仅利用来自Global Server共享的部分模型参数来解决此问题,同时保留其余部分以适应每个站点本地培训中的数据分布。但是,大多数现有方法都集中在部分参数分裂上,而在本地培训期间,不考虑\ textit {textit {site Inter-inter insteriscisies},实际上,这可以促进网站上的知识交流,以使模型学习有益于改进模型学习本地准确性。在本文中,我们提出了一个个性化的联合框架,使用\ textbf {l} ocal \ textbf {c}启动(lc-fed),以利用\ textIt {feftrict-and prediction-lactic}中的位置间暂停。提高细分。具体而言,由于每个本地站点都对各种功能都有另一种关注,因此我们首先设计嵌入的对比度位点,并与通道选择操作结合以校准编码的功能。此外,我们建议利用预测级别的一致性的知识,以指导模棱两可地区的个性化建模,例如解剖界限。它是通过计算分歧感知图来校准预测来实现的。我们的方法的有效性已在具有不同方式的三个医学图像分割任务上进行了验证,在该任务中,我们的方法始终显示出与最先进的个性化FL方法相比的性能。代码可从https://github.com/jcwang123/fedlc获得。
translated by 谷歌翻译
自动手术场景细分是促进现代手术剧院认知智能的基础。以前的作品依赖于常规的聚合模块(例如扩张的卷积,卷积LSTM),仅利用局部环境。在本文中,我们提出了一个新颖的框架STSWINCL,该框架通过逐步捕获全球环境来探讨互补的视频内和访问间关系以提高细分性能。我们首先开发了层次结构变压器,以捕获视频内关系,其中包括来自邻居像素和以前的帧的富裕空间和时间提示。提出了一个联合时空窗口移动方案,以有效地将这两个线索聚集到每个像素嵌入中。然后,我们通过像素到像素对比度学习探索视频间的关系,该学习很好地结构了整体嵌入空间。开发了一个多源对比度训练目标,可以将视频中的像素嵌入和基础指导分组,这对于学习整个数据的全球属性至关重要。我们在两个公共外科视频基准测试中广泛验证了我们的方法,包括Endovis18 Challenge和Cadis数据集。实验结果证明了我们的方法的有希望的性能,这始终超过了先前的最新方法。代码可在https://github.com/yuemingjin/stswincl上找到。
translated by 谷歌翻译
我们提出了一种新颖的形状意识的关系网络,用于内窥镜粘膜颌下粘膜释放(ESD)手术中的准确和实时地标检测。这项任务具有很大的临床意义,但由于复杂的手术环境中出血,照明反射和运动模糊而极其挑战。与现有解决方案相比,通过使用复杂的聚合方案忽略靶向对象之间的几何关系或捕获关系,所提出的网络能够实现令人满意的精度,同时通过充分利用地标之间的空间关系来保持实时性能。我们首先设计一种算法来自动生成关系关键点热量表,其能够直观地代表地标之间的空间关系的先验知识,而无需使用任何额外的手动注释工作。然后,我们开发两个互补正规计划,以逐步将先验知识纳入培训过程。虽然一个方案通过多任务学习引入像素级正则化,但另一个方案通过利用新设计的分组的一致性评估器来实现全局级正则化,该评估将关系约束以越野方式添加到所提出的网络。这两个方案都有利于训练模型,并且可以随时推动才能卸载,以实现实时检测。我们建立了一个大型内部数据集的ESD手术,用于食管癌,以验证我们提出的方法的有效性。广泛的实验结果表明,我们的方法在准确性和效率方面优于最先进的方法,更快地实现了更好的检测结果。在两个下游应用的有希望的结果进一步证实了我们在ESD临床实践中的方法的巨大潜力。
translated by 谷歌翻译
近年来,由于其在图像生成过程中的可控性,有条件的图像合成引起了不断的关注。虽然最近的作品取得了现实的结果,但大多数都没有处理细微细节的细粒度风格。为了解决这个问题,提出了一种名为DRAN的新型归一化模块。它学会了细粒度的风格表示,同时保持普通风格的稳健性。具体来说,我们首先引入多级结构,空间感知金字塔汇集,以指导模型学习粗略的功能。然后,为了自适应地保险熔断不同的款式,我们提出动态门控,使得可以根据不同的空间区域选择不同的样式。为了评估DRAN的有效性和泛化能力,我们对化妆和语义图像合成进行了一组实验。定量和定性实验表明,配备了DRAN,基线模型能够实现复杂风格转移和纹理细节重建的显着改善。
translated by 谷歌翻译
深度神经网络(NN)在许多应用中取得了巨大的成功。然而,为什么深神经网络在过度参数化方案处获得良好的概括,仍然不清楚。为了更好地了解深NN,我们建立了深NN和新的内核家族之间的连接,即神经优化内核(NOK)。Nok结构近似的架构执行了隐式正则化问题的单调血液更新。通过采用不同的激活功能,例如,Relu,MAX池和软阈值处理,我们可以隐式选择正则化问题。我们进一步建立了我们深层结构近似的NOK架构的新泛化。我们无监督的结构近似的NOK块可以作为流行律源的简单插件,以促进输入噪声的良好概括。
translated by 谷歌翻译